丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
風(fēng)控與安全 正文
發(fā)私信給周舟
發(fā)送

1

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

本文作者: 周舟 2020-05-18 10:23
導(dǎo)語(yǔ):為什么說(shuō)攻擊者攻擊的可能更多了?

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

近期,創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽做客雷鋒網(wǎng)AI金融評(píng)論公開(kāi)課,以“淺析聯(lián)邦學(xué)習(xí)中的安全性問(wèn)題”為題,詳盡地講解了聯(lián)邦學(xué)習(xí)的特點(diǎn)、聯(lián)邦學(xué)習(xí)的應(yīng)用和安全防御對(duì)策等內(nèi)容。

以下為馮霽演講全文內(nèi)容與精選問(wèn)答:

今天跟大家簡(jiǎn)單的匯報(bào),我們對(duì)聯(lián)邦學(xué)習(xí)中安全性問(wèn)題的思考。

在介紹聯(lián)邦學(xué)習(xí)之前,先簡(jiǎn)單介紹一下創(chuàng)新工場(chǎng)。

創(chuàng)新工場(chǎng),是由李開(kāi)復(fù)博士在2009年創(chuàng)辦的創(chuàng)投機(jī)構(gòu),經(jīng)過(guò)10余年的發(fā)展,在國(guó)內(nèi)外都頗具影響力。

創(chuàng)新工場(chǎng)的特色之一是設(shè)立了創(chuàng)新工場(chǎng)人工智能工程院,開(kāi)創(chuàng)了獨(dú)特的VC+AI模式。創(chuàng)新工場(chǎng)人工智能工程院最近針對(duì)人工智能系統(tǒng)的安全性和隱私保護(hù)方向,做了一點(diǎn)自己的思考,今天和大家做一個(gè)簡(jiǎn)要的技術(shù)上的分享。

人工智能系統(tǒng)的安全性問(wèn)題

這一波(2015年后)人工智能的興起,使得人工智能逐漸從低風(fēng)險(xiǎn)的應(yīng)用,比如判斷一封郵件是否是垃圾郵件,轉(zhuǎn)向了高風(fēng)險(xiǎn)應(yīng)用,比如自動(dòng)駕駛、無(wú)人機(jī)、還有重度依賴人工智能技術(shù)的金融投資、投顧等領(lǐng)域。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

一旦這些人工智能系統(tǒng)出現(xiàn)了偏差甚至錯(cuò)誤,它所帶來(lái)的損失不僅僅是巨額的財(cái)產(chǎn),還有可能是生命。

但是,一個(gè)核心的問(wèn)題是,人工智能領(lǐng)域涉及到的安全問(wèn)題,和傳統(tǒng)的軟件工程安全問(wèn)題,是否存在本質(zhì)的不同?我們能否繼續(xù)使用傳統(tǒng)的攻防工具,對(duì)人工智能系統(tǒng)進(jìn)行安全分析?

這就需要談到軟件1.0和軟件2.0的概念。

我們認(rèn)為在這一輪的人工智能興起之后,整個(gè)軟件工程也產(chǎn)生了一個(gè)范式的轉(zhuǎn)變。

在傳統(tǒng)的軟件工程中,工程師會(huì)搭建一個(gè)系統(tǒng),構(gòu)建一個(gè)基于規(guī)則的程序,輸入數(shù)據(jù)后,計(jì)算機(jī)會(huì)給出確定性的輸出。這是軟件1.0時(shí)代的特征。

而隨著這一波人工智能的興起,誕生了一個(gè)新的軟件工程開(kāi)發(fā)范式,程序是由數(shù)據(jù)驅(qū)動(dòng)的方式,利用人工智能算法自動(dòng)產(chǎn)生的,這從軟件工程角度來(lái)看,是一個(gè)相當(dāng)本質(zhì)的改變,有人稱之為軟件2.0時(shí)代。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

因此,在軟件工程1.0時(shí)代的一系列安全分析,漏洞分析的手段,到了軟件2.0時(shí)代不再適用。軟件工程范式的改變,帶來(lái)了全新的安全問(wèn)題。

目前針對(duì)人工智能系統(tǒng)的攻擊,可以分成兩大類。一類是測(cè)試階段攻擊,一類是訓(xùn)練階段攻擊。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

測(cè)試階段攻擊

訓(xùn)練階段攻擊發(fā)生在AI模型訓(xùn)練之前,測(cè)試階段攻擊針對(duì)是已訓(xùn)練好的AI模型。我們先看測(cè)試階段攻擊。

測(cè)試階段的攻擊,大家見(jiàn)的最多的一類,也對(duì)抗樣本。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

左邊的這張圖拍的是大熊貓的照片,當(dāng)攻擊者知道這個(gè)圖像分類模型的所有參數(shù)后,就可以根據(jù)模型的參數(shù),精心設(shè)計(jì)出干擾“噪聲”(中間的圖)。

把噪聲疊加在左圖,形成右圖。雖然我們用肉眼看到的右圖和左圖一模一樣,但圖像分類模型會(huì)把右圖的熊貓錯(cuò)認(rèn)為另一種生物。這個(gè)過(guò)程就是所謂的對(duì)抗樣本攻擊。

對(duì)抗樣本不僅僅可用于電腦儲(chǔ)存的數(shù)字圖像,還可以應(yīng)用在真實(shí)的物理環(huán)境中。

比如對(duì)交通的路牌做微小的改動(dòng),就可能讓自動(dòng)駕駛汽車在行駛過(guò)程中因?yàn)椴荒苷_識(shí)別,而做出錯(cuò)誤的行動(dòng)。再比如用3D打印技術(shù)設(shè)計(jì)出一只烏龜,在烏龜?shù)募y理上做對(duì)抗樣本的疊加,模型會(huì)認(rèn)為這是一個(gè)其他物種。

對(duì)抗樣本并不神秘,學(xué)術(shù)界認(rèn)為它攻擊原理的本質(zhì)就是由于我們的輸入樣本在一個(gè)非常高維的空間中。而通過(guò)機(jī)器學(xué)習(xí)模型學(xué)習(xí)出來(lái)的決策邊界,在高維空間中是高度非線性的。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

對(duì)抗樣本在這些高度非線性的角色邊界附近產(chǎn)生了一個(gè)擾動(dòng),擾動(dòng)就會(huì)讓模型從分類一誤判為分類二(如上圖)。但它們?cè)谝曈X(jué)上很難區(qū)分。

剛才講的對(duì)抗樣本,從另一個(gè)角度來(lái)看,是白盒攻擊。意思是攻擊者需要提前知道AI模型的所有參數(shù)信息。

黑盒攻擊,是另一種測(cè)試階段攻擊,攻擊者對(duì)指定模型的參數(shù)未知,只知道模型的輸入輸出,這種情況下依舊想產(chǎn)生特定的對(duì)抗樣本,很明顯黑盒攻擊的難度更大。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

怎樣才能讓黑盒攻擊,做到和白盒攻擊一樣的效果呢?對(duì)此,目前常見(jiàn)的攻擊思路有兩大方向:

黑盒攻擊的第一大方向,是利用對(duì)抗樣本的普適性。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

雖然準(zhǔn)備攻擊的對(duì)象的模型和參數(shù)不知道,但是我們可以找一個(gè)已知的模型,比如說(shuō)VGG,或者ResNet(殘差網(wǎng)絡(luò)),來(lái)做一個(gè)對(duì)抗樣本。

我們的核心假設(shè)是如果這個(gè)對(duì)抗樣本能哄騙已知的模型,也就能哄騙云端(黑盒)的分類器, 2016年有人做過(guò)一個(gè)的工作,用不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)產(chǎn)生相應(yīng)的對(duì)抗樣本,去哄騙其他的結(jié)構(gòu)。實(shí)驗(yàn)的結(jié)果證明了,這個(gè)假設(shè)是合理的。

怎樣加強(qiáng)這種對(duì)抗樣本的普適性?

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

首先是在訓(xùn)練替代模型時(shí),對(duì)數(shù)據(jù)進(jìn)行增廣,其次是利用集成方法,如果它能成功的攻擊多個(gè)已知的白盒的模型的集成,那么攻擊一個(gè)黑盒的API,成功率就會(huì)高一些。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

黑盒攻擊的第二個(gè)方向,是基于查詢的逆向猜測(cè),目前有一些云服務(wù),返回時(shí)顯示的不僅僅是一個(gè)標(biāo)簽,還包括了某一個(gè)類別的概率的分布的向量。

這個(gè)分布向量包含了關(guān)于模型本身非常多的知識(shí)。我們可以讓這個(gè)模型標(biāo)注足夠多的樣本,然后訓(xùn)練一個(gè)本地模型,模擬云端模型的行為。由于本地模型是白盒的,利用現(xiàn)有白盒攻擊算法,針對(duì)本地模型產(chǎn)生對(duì)抗樣本,再由于普適性,該樣本對(duì)云端黑盒模型往往同樣有效。

這件事情的關(guān)鍵,是訓(xùn)練一個(gè)本地的模型,該模型能夠模仿黑盒模型的行為。有點(diǎn)像吸星大法。學(xué)術(shù)界Hinton等人提出的知識(shí)蒸餾,以及更早的周志華教授提出的二次學(xué)習(xí),本質(zhì)都是在干這件事情。

我們也可以用遺傳算法,改變輸入樣本的像素的值,每次改變一點(diǎn)點(diǎn),就訪問(wèn)一下云端的API。用這種方式,我們就能慢慢地收到一個(gè)可以哄騙云端的對(duì)抗樣本。

訓(xùn)練階段攻擊

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

剛剛講的,是測(cè)試階段攻擊。下面講,訓(xùn)練階段攻擊。

訓(xùn)練階段攻擊,發(fā)生在模型產(chǎn)生之前。比如說(shuō)經(jīng)典的訓(xùn)練階段攻擊是數(shù)據(jù)下毒,目標(biāo)是改動(dòng)盡可能少的訓(xùn)練數(shù)據(jù),使得訓(xùn)練后的模型,在干凈測(cè)試集上表現(xiàn)盡可能差。

最近我們和南大周志華教授合作,提出了一個(gè)新的范式,我們叫毒化訓(xùn)練(參見(jiàn)Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder,In NeurIPS 19)要求對(duì)每個(gè)樣本盡可能小的擾動(dòng)(注意數(shù)據(jù)下毒是盡可能少的樣本進(jìn)行編輯),使得訓(xùn)練后的模型,在干凈測(cè)試集上表現(xiàn)盡可能差。


創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

毒化訓(xùn)練,從流程來(lái)看就是這樣,針對(duì)一個(gè)訓(xùn)練集,需要用一個(gè)函數(shù)在訓(xùn)練集上做某種程度上的擾動(dòng)。

然后任意一個(gè)模型,在毒化后的訓(xùn)練集上做完訓(xùn)練后,它在面臨一個(gè)干凈的測(cè)試樣本的時(shí)候,每次的預(yù)測(cè)都是錯(cuò)誤。

那么這里的關(guān)鍵就是如何得到下毒的函數(shù)g,在Deep Confuse這篇文章中,我們用了一類特殊自編碼器。自編碼器是非常經(jīng)典的,從輸入到同輸入空間中的映射。去噪自編碼器,能做到噪音樣本經(jīng)過(guò)編碼和解碼這兩個(gè)步驟,把原始有噪音的樣本去噪。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

這個(gè)算法把去噪自編碼器逆向使用,讓自編碼器學(xué)習(xí)出如何增加毒化噪聲(而不是降噪)。 

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

這里就涉及到了算法的第二個(gè)核心思想: 

我們需要同時(shí)訓(xùn)練一個(gè)假想的分類器和一個(gè)我們想要的加噪自編碼器。通過(guò)記錄假想分類器在訓(xùn)練過(guò)程中更新的軌跡,反向的更新毒化噪聲器的參數(shù)。

舉例來(lái)說(shuō),我們觀察一個(gè)人學(xué)習(xí)的過(guò)程,然后根據(jù)這個(gè)人學(xué)習(xí)書(shū)本的軌跡,修改書(shū)本的知識(shí)。我最終希望他學(xué)完這本書(shū)后,每學(xué)一步都是錯(cuò)的,每一步我們都稍微修改了一點(diǎn)點(diǎn)。通過(guò)劫持一個(gè)正常分類器的學(xué)習(xí)軌跡,我們教會(huì)了加噪自編碼器如何下毒。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

效果是明顯的,如上圖所示,abc中的三張圖,第一行都是原圖,第二行都是毒化后的圖片,從視覺(jué)上看,我們很難看出不同。

但是對(duì)于分類器來(lái)說(shuō),在毒化后的數(shù)據(jù)集上訓(xùn)練的分類器,面臨干凈樣本的時(shí)候,正確率降低到了完全不可用,正常圖像數(shù)據(jù)基本都不能正確的被識(shí)別。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

毒化樣本也存在普適性,我們針對(duì)于不同的網(wǎng)絡(luò)架構(gòu)(VGG、ResNet、Dense)做了一些實(shí)驗(yàn)。

這三個(gè)不同的網(wǎng)絡(luò)架構(gòu),在相同的毒化訓(xùn)練集上,預(yù)測(cè)準(zhǔn)確度都會(huì)有一個(gè)非常明顯的下降。

當(dāng)然,毒化訓(xùn)練,不是只能干壞事,它也能做好事。

毒化訓(xùn)練,可以用來(lái)保護(hù)公司的知識(shí)產(chǎn)權(quán)。比如醫(yī)院,如果想去發(fā)布一些訓(xùn)練集,但又擔(dān)心第三方用發(fā)布后的數(shù)據(jù)進(jìn)行商業(yè)活動(dòng)。作為數(shù)據(jù)的發(fā)布方,可以將想要發(fā)布的訓(xùn)練集毒化,讓第三方不能隨意對(duì)這些數(shù)據(jù)進(jìn)行商業(yè)運(yùn)作。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

下面講聯(lián)邦學(xué)習(xí)。

聯(lián)邦學(xué)習(xí),我的理解是,他本質(zhì)上是下一代分布式機(jī)器學(xué)習(xí)系統(tǒng)。它本質(zhì)上是一個(gè)分布式的架構(gòu),在這種分布式的架構(gòu)下,它具備傳統(tǒng)分布式平臺(tái)不具備的隱私保護(hù)的功能。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

聯(lián)邦學(xué)習(xí)有三個(gè)顯著特點(diǎn)。

第一個(gè)特點(diǎn)是剛才提到的隱私保護(hù)。由于訓(xùn)練數(shù)據(jù)不會(huì)出本地,聯(lián)邦學(xué)習(xí)滿足歐盟的GDPR法案(通用數(shù)據(jù)保護(hù)條例)等各類隱私。

第二個(gè)特點(diǎn)是端部定制。

聯(lián)邦學(xué)習(xí)在邊緣計(jì)算中前景巨大。

根據(jù)聯(lián)邦學(xué)習(xí)算法的特點(diǎn),我們?nèi)绻谶吘売?jì)算的過(guò)程中,比如說(shuō)我們?cè)诳纱┐鞯尼t(yī)療設(shè)備中,這個(gè)模型不僅保護(hù)了本地?cái)?shù)據(jù),跟云端的大模型相比,它還自適應(yīng)的去滿足基于本地?cái)?shù)據(jù)的個(gè)性化需求。每個(gè)人對(duì)醫(yī)療設(shè)備的需求是不一樣的,我們可以根據(jù)不同數(shù)據(jù)的輸入分布,做一個(gè)端部的定制化。這非常具有商業(yè)價(jià)值。

第三個(gè)特點(diǎn)是大家熟悉的協(xié)同合作,在不同機(jī)構(gòu)之間,比如一家電商網(wǎng)站和一家銀行之間的合作。在聯(lián)盟學(xué)習(xí)沒(méi)有推出之前,這件事情可能在技術(shù)上不可行,而在聯(lián)邦學(xué)習(xí)推出之后,這件事情可以做到。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

聯(lián)邦學(xué)習(xí)的應(yīng)用可分成四大類。

第一,是基于政府的聯(lián)邦學(xué)習(xí)應(yīng)用。這類應(yīng)用主要是因?yàn)榉煞ㄒ?guī)或者政策性的要求,催生的AI服務(wù)。

第二類,是基于企業(yè)的聯(lián)邦學(xué)習(xí)應(yīng)用。部分大型機(jī)構(gòu)內(nèi)部之間的數(shù)據(jù)不能進(jìn)行直接的交換。

第三類,消費(fèi)端的聯(lián)邦學(xué)習(xí)應(yīng)用,更多的是針對(duì)于邊緣計(jì)算或者定制化。

2C端,更多和邊跟邊緣計(jì)算有關(guān);而2B端,更強(qiáng)調(diào)聯(lián)邦學(xué)習(xí)的協(xié)同能力。

當(dāng)然也可以做把2B、2C混合著做,統(tǒng)稱混合型聯(lián)邦學(xué)習(xí)應(yīng)用。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

在聯(lián)邦學(xué)習(xí)的分布式場(chǎng)景下,安全的問(wèn)題更加需要研究,因?yàn)楣粽吖舻目赡芨唷?/p>

比如攻擊者所了解的先驗(yàn)知識(shí)會(huì)更多,要么是知道某一方的數(shù)據(jù),要么知道某一方的模型。不需要知道所有方的數(shù)據(jù)和模型,攻擊者就能做出攻擊。

攻擊者的目的也更為多樣,他可能只針對(duì)于某一方進(jìn)行攻擊,也可能把整個(gè)聯(lián)邦后的結(jié)果都進(jìn)行攻擊。不管如何,被攻擊者所面臨的場(chǎng)景矩陣都會(huì)更加復(fù)雜。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

針對(duì)聯(lián)邦學(xué)習(xí)的攻擊的方式可以分為三類。

第一類是黑/白盒攻擊,攻擊者獲得模型參數(shù)(白盒),或者通過(guò)API進(jìn)行訪問(wèn)(黑盒)。黑/白盒攻擊具有普適性,和聯(lián)邦學(xué)習(xí)關(guān)系較小。剛才提到的各類黑盒白盒攻擊,在聯(lián)邦學(xué)習(xí)場(chǎng)景下依舊適用。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

第二類是信道攻擊。

如果攻擊者侵入了訓(xùn)練過(guò)程中的通信系統(tǒng),他只能夠監(jiān)聽(tīng)到本地的小模型跟中央的Server之間的梯度更新的信號(hào),我們能不能做一些事情?

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

上圖基于對(duì)抗生成網(wǎng)絡(luò),如果你有相應(yīng)的梯度更新的方向,這篇工作告訴我們,目前技術(shù)上能夠高保真的還原出對(duì)應(yīng)的樣本。怎么防御呢?

目前,我們已經(jīng)有了的防御方案,比如對(duì)梯度參數(shù)信息進(jìn)行同態(tài)加密,能夠以非常高的概率防御這一類的信道攻擊。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

最后一類是數(shù)據(jù)攻擊,也就是剛才提到的毒化訓(xùn)練,數(shù)據(jù)下毒。

聯(lián)邦學(xué)習(xí)場(chǎng)景下,毒化訓(xùn)練的核心問(wèn)題是,僅僅毒化個(gè)別數(shù)據(jù)庫(kù)(而不是所有數(shù)據(jù)),是否可以依舊破壞模型的準(zhǔn)確度?

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

例如如果我們只得到了30%的數(shù)據(jù),毒化訓(xùn)練的算法有沒(méi)有效,需要實(shí)驗(yàn)驗(yàn)證。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

在多方聯(lián)邦學(xué)習(xí)場(chǎng)景下,我們用CIFAR10的數(shù)據(jù)來(lái)分別毒化不同比例的本地?cái)?shù)據(jù)庫(kù),觀測(cè)毒化的效果。

如上圖顯示,不管是兩方學(xué)習(xí)、三方學(xué)習(xí)還是四方學(xué)習(xí),不管我們攻擊了一方、兩方、三方還是把所有數(shù)據(jù)都攻擊,性能都會(huì)降低。

當(dāng)然你攻擊的聯(lián)邦學(xué)習(xí)的參與方越多,攻擊的成功率和攻擊的顯著性就會(huì)越高。

創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽:聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

安全防御,是一件非常困難的事情。

做一個(gè)壞人很容易,做好人卻很難。壞人,只需要攻擊一個(gè)點(diǎn),攻擊成功了,攻擊的算法就有效。如果做防御,你需要對(duì)所有潛在的攻擊都做保護(hù)。

我簡(jiǎn)單介紹三類不同的防御思路。

第一類就是剛才提到的,基于信道的攻擊。用同態(tài)加密或者多方安全計(jì)算,能夠解決信道攻擊。

第二種思路,即魯棒性機(jī)器學(xué)習(xí)。其實(shí)在深度學(xué)習(xí)之前,學(xué)術(shù)界就有非常大量的魯棒性機(jī)器學(xué)習(xí)研究。

第三種思路是對(duì)抗訓(xùn)練和聯(lián)邦對(duì)抗訓(xùn)練。

對(duì)抗訓(xùn)練是魯棒性機(jī)器學(xué)習(xí)的一個(gè)分支。對(duì)于每一個(gè)樣本點(diǎn),在圍繞這個(gè)樣本點(diǎn)的附近,都能夠有一個(gè)非常好的性能。通過(guò)這種方式來(lái)避開(kāi)在高維空間決策邊界中樣本的一些擾動(dòng)。在聯(lián)盟學(xué)習(xí)場(chǎng)景下,我們?nèi)匀恍枰_(kāi)發(fā)一些新的、可以規(guī)模化的對(duì)抗訓(xùn)練算法。

目前對(duì)抗訓(xùn)練是一個(gè)非常好的技術(shù),但是它在面臨海量訓(xùn)練集的任務(wù)的時(shí)候,很難形成規(guī)?;?。這是我們從算法上設(shè)計(jì)更好實(shí)現(xiàn)安全防御的三種對(duì)策。

時(shí)間有限,今天就和大家介紹這么多,謝謝。

互動(dòng)問(wèn)答精選

Q1: 為什么說(shuō)毒化后的樣本,可以防止成為不好的用途?

馮霽:當(dāng)你把要發(fā)布的數(shù)據(jù)進(jìn)行某種程度上的毒化,第三方因?yàn)椴恢滥闳绾味净?,所以他就沒(méi)有辦法拿你的數(shù)據(jù)做你不想讓他去做的一些場(chǎng)景和商業(yè)落地行為。

Q2: 為什么四方學(xué)習(xí)的原始數(shù)據(jù),準(zhǔn)確度比兩方的低很多。

馮霽:下毒的訓(xùn)練集越少,沒(méi)有毒的訓(xùn)練集越多,下毒的能力就越少。

最極端的例子是,如果你有100萬(wàn)個(gè)樣本,你只改了一個(gè)樣本,訓(xùn)練之后,你對(duì)模型的操控的能力跟操控的幅度就會(huì)更小。

Q3: 最近有銀行和醫(yī)療公司泄露數(shù)據(jù)的情況發(fā)生,聯(lián)邦學(xué)習(xí)現(xiàn)在的成熟度,足夠應(yīng)對(duì)這些情況嗎?

馮霽:泄露數(shù)據(jù)的原因比較多,聯(lián)邦學(xué)習(xí)是能夠從算法上和技術(shù)上防止數(shù)據(jù)的泄漏。

如果因?yàn)闃I(yè)務(wù)方本身或者其他原因?qū)е碌臄?shù)據(jù)泄露,那么這就不是一個(gè)技術(shù)問(wèn)題,也就不是聯(lián)邦學(xué)習(xí)所能夠解決的領(lǐng)域和范疇了。

Q4:原始數(shù)據(jù)是指毒化前的數(shù),如何應(yīng)對(duì)非iid場(chǎng)景下的毒化攻擊。

馮霽:在iid場(chǎng)景下進(jìn)行毒化攻擊,都很難。毒化攻擊這件事情本身和這個(gè)樣本是不是iid沒(méi)有多大關(guān)系。

只能說(shuō),如果樣本是iid的話,對(duì)于一些分類任務(wù)它是能更好毒化的。

Q5: 聯(lián)邦學(xué)習(xí)和區(qū)塊鏈有什么不一樣?

馮霽:不太一樣。

聯(lián)邦學(xué)習(xí)更多的是一個(gè)分布式的機(jī)器學(xué)習(xí)平臺(tái),而區(qū)塊鏈更多的是在做一個(gè)去中心化的、可靠且不受干擾的信任機(jī)制。

Q6: 無(wú)人車怎樣防范錯(cuò)誤的識(shí)別圖像?

馮霽:有人專門做過(guò)實(shí)驗(yàn),檢驗(yàn)?zāi)壳吧逃玫臒o(wú)人車是否能識(shí)別毒化后的數(shù)據(jù)或者圖片。

當(dāng)我們把路牌的進(jìn)行處理會(huì)發(fā)現(xiàn),目前現(xiàn)有的、比較成熟的無(wú)人車視覺(jué)系統(tǒng)都會(huì)做出相應(yīng)的誤判。

無(wú)人車公司需要在這一類高風(fēng)險(xiǎn)模型的訓(xùn)練過(guò)程中利用到對(duì)抗訓(xùn)練,增強(qiáng)模型的魯棒性。

Q7: 聯(lián)邦學(xué)習(xí)會(huì)導(dǎo)致隱私泄露嗎?

馮霽:聯(lián)邦學(xué)習(xí)是一個(gè)保護(hù)隱私的、分布式的機(jī)器學(xué)習(xí)平臺(tái)。在這個(gè)框架下,我們可泄露的東西非常少。

當(dāng)參數(shù)被加過(guò)密,信道在通信的過(guò)程中,也是監(jiān)聽(tīng)無(wú)效的。我覺(jué)得唯一需要注意的是剛才提到的毒化訓(xùn)練。

聯(lián)邦學(xué)習(xí)的數(shù)據(jù)不僅僅要不能出獄,同時(shí)在不出獄的同時(shí),你還要保證別人也不能看到。

如果你的數(shù)據(jù)在不出獄的前提下,能夠被第三方進(jìn)行某種程度的修改,那么這也能給這個(gè)系統(tǒng)帶來(lái)隱患。

Q8: 如何平衡聯(lián)邦學(xué)習(xí)的效率和安全?

馮霽:這其實(shí)是一個(gè)商業(yè)問(wèn)題。

我們希望在未來(lái),能夠在可異性和隱私保護(hù)之間尋求一個(gè)平衡點(diǎn)。

這個(gè)平衡點(diǎn),我們認(rèn)為跟產(chǎn)品本身有關(guān)。

有的產(chǎn)品是受到法律強(qiáng)制性約束的,它基本上是是沒(méi)有可平衡余地的。

對(duì)于不受法律嚴(yán)格約束的應(yīng)用場(chǎng)景,我們認(rèn)為應(yīng)該把這個(gè)選擇的權(quán)利交給用戶。

用戶想要一個(gè)更強(qiáng)的隱私保護(hù),效益就會(huì)差一些;用戶希望效率更高,那么隱私的保護(hù)可能就會(huì)弱一些。這個(gè)選擇的權(quán)利不應(yīng)該只讓產(chǎn)品經(jīng)理決定,而更應(yīng)該交給用戶。(雷鋒網(wǎng))

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

專注報(bào)道AI+金融(微信:18811172358)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)